Taller de Investigación IV

Text Mining

Para las Cs. Sociales

Taller de Investigación IV

  • 📑 Introducirlos en el análisis de datos no estructurados

  • 🕵️‍♀️ Metodología cualitativa + Análisis Estadístico

  • 💻 Procesamiento de lenguaje Natural

Herramientas

¿Por qué usamos R?

  • Es un lenguaje realizado por y para estadísticos. Manipulación de bases de datos, modelado de datos (regresiones lineales, logarítmicas, estadística bayesiana), machine-learning y visualizaciones
  • Es un software libre. Es gratuito (no requiere licencias)
  • R tiene una amplia comunidad y recursos disponibles
  • Tiene un IDE (Integrated development enviroment) amigable que facilita el trabajo
  • Flexible y customizable

Modalidad de las clases

  • Teorico

  • Práctico

Aprobación de la materia

  • 🙋‍♀️75% de asistencia a clase
  • 💻Realización de actividades prácticas
  • 📎Aprobación del trabajo/proyecto final

Trabajo final

Dos entregas obligatorias:

  1. Presentación del proyecto de investigación (clase 8)
  2. Informe final con resultados (clase 15)

¿Dudas? / ¿consultas?

🕒 Recreo de 10 min 🕝

💫 Text Mining 💫

Es el proceso de analizar colecciones de materiales textuales con el fin de capturar conceptos y temas clave y descubrir relaciones y tendencias ocultas 

text mining vs. Data mining

Datos estructurados

Datos NO estructurados

¿Qué haremos?

  • Clasificación de documentos: Asignación de categorías a textos.

  • Recuperación de información: Búsqueda eficiente de documentos relevantes.

  • Clustering: Agrupación de textos similares sin etiquetas predefinidas.

  • Extracción de información: Identificación de entidades y relaciones.

Lo primero es

  • Tokenización: División de texto en palabras o frases clave.

  • Lemmatización y stemming: Reducción de palabras a su forma base.

  • Representación vectorial: Bag of Words (BoW), TF-IDF, embeddings.

🕒 Recreo de 10 min 🕝